在命令行中運行Hadoop自帶的WordCount程序

#在命令行中運行Hadoop自帶的WordCount程序| 來源: 網(wǎng)絡(luò)整理| 查看: 265

Hadoop集群搭建完之后，接下來就需要開始嘗試去使用它啦。我們可以在這個集群上運行Hadoop的“Hello World程序”——WordCount單詞計數(shù)。這個程序的代碼在我們下載安裝Hadoop的時候就已經(jīng)打包下載好了，我們只需要直接去使用就可以了。

（一）、啟動hdfs進程服務(wù)：

進入hadoop的目錄中：cd Hadoop/hadoop-2.7.7

進入相應(yīng)目錄后啟動HDFS的進程服務(wù)

啟動后界面如下：

通過jps查看HDFS是否確實已經(jīng)被啟動（jps是一個java程序，它的作用是查看當(dāng)前Java虛擬機運行著哪些程序）

在圖中我們可以看到 DataNode、NameNode和SecondaryNameNode這三個組成HDFS系統(tǒng)的進程，說明HDFS系統(tǒng)已經(jīng)成功啟動。

（二）、使用HDFS服務(wù)運行WordCount程序

1.在云端創(chuàng)建一個/data/input的文件夾結(jié)構(gòu) bin/hdfs?dfs?-mkdir?-p?/data/input

2.在本地創(chuàng)建一個my_wordcount.txt? touch?my_wordcount.txt 3.編輯my_wordcount.txt文件，輸入一些字符 nano my_wordcount.txt

4.把本地的my_wordcount.txt文件上傳到云端，由主機進行文件的分布式存儲。 bin/hdfs?dfs?-put?my_wordcount.txt?/data/input

（這個可以去localhost：9000的可視化界面中查看編輯。但是會特別卡，不建議去可視化界面看。） 5.查看云端的/data/input文件夾下面有哪些文件 bin/hdfs?dfs?-ls?/data/input

我們會看到其中有個my_wordcount.txt文件。說明我們剛剛已經(jīng)成功把my_wordcount.txt文件傳輸?shù)皆贫肆恕?/p>

6.運行share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar這個java程序，調(diào)用wordcount方法。/data/input/my_wordcount.txt是輸入?yún)?shù)，待處理的文件?/data/output/my_wordcount是輸出參數(shù)，保存處理后的數(shù)據(jù)的文件夾名字 bin/hadoop?jar?share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.7.jar?wordcount?/data/input/my_wordcount.txt /data/out/my_wordcount

7.查看云端的/data/output/my_wordcount/part-r-00000文件。 bin/hdfs?dfs?-cat?/data/out/my_wordcount/part-r-00000

【本文地址】

公司簡介

聯(lián)系我們

今日新聞

推薦新聞

專題文章